JSAI2026 非構造化コーパスを対象にしたエンティティ共起に基づく軽量なGraphRAG検索手法の提案
テーマ
非構造化テキストから、外部知識グラフなしで軽量なGraphRAG検索を行う研究
文書中のエンティティ共起だけで文書–エンティティ二部グラフを作り、ベクトル検索を補助する
背景課題
通常のRAGは、クエリとのベクトル類似度が高い文書を上位から取る
しかしマルチホップQAでは、必要な根拠が複数文書に分散し、クエリと直接似ていない文書も必要になる
既存のGraphRAGは有効だが、LLMによる関係抽出・要約・チューニングなどの前処理コストが高い
RAG
関連度が高い文書の検索には向いている
問題: 類似度が低いが正解である文書を拾えない
ロングテール問題
GraphRAG
情報から要約や関係性を抽出したグラフを用いる
高度な意図を解釈した検索が可能
LightRAG: GraphRAGの軽量版
提案
Bubble Graph Preference(BGP)という軽量な検索統合手法を提案
Bubble Graph Preference
Step1: エンティティの二部グラフの構築
各文書からエンティティを抽出し、文書ノードとエンティティノードをつなぐ
Step2: root文書から関連文書を収集
グラフから追加候補として集める
2ホップ先までとるらしい
Step3: 共有エンティティの識別性に基づく関連文書スコアリング
TF-IDFの合算
Step4: ベクトル検索結果が不確かな領域の最順位付け
ベクトル検索スコアが拮抗している「不確実な帯域」(これをBubbleと呼ぶ)だけでグラフスコアを使う
常にグラフを使うわけではない
ポイント
グラフは「文書にどのエンティティが出たか」だけで作る
エンティティ間の関係抽出や要約生成は行わない
コストが低くていいね daiiz.icon
関連文書のスコアには、共有エンティティを単語のように扱った局所TF-IDFを使う
多くの文書に出る一般的なエンティティより、特定文書をよく区別するエンティティを重視する
ベクトル検索で十分に自信がある順位は崩さない
曖昧な順位だけをグラフで入れ替える設計
感想 daiiz.icon
GraphRAGを検索候補を広げる軽量な補助構造として扱っているのがユニーク
データベース的に使っている
ベクトル検索が不安的なときだけに作用する仕組みがよい
#聴講メモ